文心5.0 :2.4万亿参数、原生全模态架构
百度世界大会发布文心 5.0,以 2.4 万亿参数 MoE 架构(激活率 < 3%)、原生全模态为核心突破。区别于后期融合,其可原生处理图文音视频,解决信息损耗问题,在 40 余项测试中对标 Gemini-2.5-Pro、GPT-5-High
百度世界大会发布文心 5.0,以 2.4 万亿参数 MoE 架构(激活率 < 3%)、原生全模态为核心突破。区别于后期融合,其可原生处理图文音视频,解决信息损耗问题,在 40 余项测试中对标 Gemini-2.5-Pro、GPT-5-High
这事儿听着是不是有点魔幻,一个在代码世界里呼风唤雨的顶尖奇才,怎么突然就对你家厨房里的那个铁盒子,还有车库里那台代步工具感兴趣了
论文发表于EMNLP2025主会,核心作者为北京通用人工智能研究院(通研院)研究工程师白骏、刘洋,以及通计划武汉大学联培一年级博士生童铭颢,通讯作者为通研院语言交互实验室研究员贾子夏,实验室主任郑子隆。
“面向教育、医疗、办公等领域,将发布‘更懂你的AI’,构建更加开放的多语言大模型应用生态,解决行业应用刚需,推动人工智能普惠共享。”10月末,在安徽省相关部门举办的第八届世界声博会暨科大讯飞全球1024开发者节新闻发布会上,安徽省工信部门相关领导如是说。
罗福莉在11月12日朋友圈官宣加入小米MiMo团队,直言要把智能从语言推进到物理世界,她是DeepSeek-V2的关键开发者,外界曾传雷军愿给千万年薪,如今靴子落地
阿里巴巴秘密启动的 “千问” 项目基于 Qwen 最强模型打造同名个人 AI 助手,这一战略布局将深度整合阿里云生态资源,推动 A 股相关产业链公司的技术协同与商业落地。
“如果我们美国‘允许’中国在人工智能(AI)领域占据主导地位,如果我们打输了这场高科技领域的硬仗,那么我们将会‘失去一切’。甚至,我们最终可能都要‘给中国打工’。”
“因访问量激增,远超我们的预期,下午线上服务的成功率降至90%,我们对由此带来的不便深表歉意。”29日深夜,MiniMax官方公告中向公众致歉,据说,这篇道歉信是创始人闫俊杰亲笔。
全新界面逻辑:从「以文件为中心」切换为「以Agent为中心」,多个Agent可以同时运行、互不干扰。
从10月27日云原生实践报告到25日AI架构案例密集发布,近两天的行业动态正悄然勾勒出2025年软考系统架构设计师综合知识科目的命题蓝图。作为聚焦技术与职场的观察视角,“码农财经”结合真实新闻数据,拆解核心考点、解析命题逻辑并提炼解题技巧,帮考生精准踩分。
10 月 28 日,俄莫斯科国立大学亚非学院院长在“全球对话”会议上公开表示:“中国 AI 技术已整体超越美国”,并点名阿里“千问”、深度求索(DeepSeek)等模型“成本极为低廉”。
10月28日的AI圈堪称“技术爆发日”:百度开源百亿参数多模态模型刷新12项基准,美团免费开放视频生成技术底座,寒武纪股价单日波动超3% 。这场集中爆发的技术突破,正悄悄改写AI研发的游戏规则。从“大而全”到“精而省”,从封闭垄断到开源普惠,今天的AI技术正站
10月28日,记者从安徽省政府新闻办召开的新闻发布会上获悉,第八届世界声博会暨2025科大讯飞全球1024开发者节将于11月2日至6日在合肥体育中心举办。作为安徽推动“人工智能+”行动的重要平台,本届大会以“更懂你的AI”为核心,聚焦技术突破、产业落地与全民互
在AI大模型竞争白热化的当下,高效推理与长上下文处理已成为开发者痛点。近日,蚂蚁集团旗下百灵大模型团队正式开源Ring-flash-linear-2.0-128K,一款专为超长文本编程设计的创新模型。该模型以混合线性注意力机制和稀疏MoE架构为核心,激活仅6.
在AI大模型竞争白热化的当下,高效推理与长上下文处理已成为开发者痛点。近日,蚂蚁集团旗下百灵大模型团队正式开源Ring-flash-linear-2.0-128K,一款专为超长文本编程设计的创新模型。该模型以混合线性注意力机制和稀疏MoE架构为核心,激活仅6.
自从理查德·萨顿(Richard Sutton)以一篇《经验的时代》(The Age of Experience)批评大型语言模型(LLM)缺乏真正的持续学习和元学习能力以来,整个LLM界最近频繁开始了对这一天花板集体突围。
岩喜的装修风格独具特色,将高端日式美学与可爱的Kitty元素完美融合。一进门,便能看到众多可爱的Kitty装饰!
清华大学MADSys实验室与趋境科技(Approaching.AI)联合研发了一个系统KTransformers,一张消费级显卡就能跑一个万亿级参数模型。
moe 巨兽 amx sosp ktransformers 2025-10-23 16:17 2
小米集团与北京大学联合在arXiv平台发表重磅论文,以“95后AI天才少女”罗福莉为通讯作者之一的研究团队,提出名为Rollout Routing Replay(R3)的创新性方法,成功攻克混合专家(MoE)模型在强化学习(RL)训练中的稳定性难题。这一突破不
话说最近AI圈又有大新闻了!俩扩散语言模型(DLM)突然火了,一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE,另一个是RadicalNumerics家的RND1。